Wstęp
Opis problemu
Problemem, który analizujemy w niniejszym projekcie jest wpływ poszczególnych czynników na wynik testu końcowego.
Baza danych
Baza danych którą analizujemy nazywa się „Wyniki uczniów”. Znajduje się w niej 20 kolumn z danymi oraz 6.608 wierszy danych. W bazie danych znajdują się zarówno zmienne liczbowe jak i jakościowe.
Czyszczenie danych
W niniejszym rozdziale sprawdzimy jakość danych, zbadamy występowanie braków danych oraz dobierzemy odpowiednią metodę imputacji brakujących danych (jeżeli zajdzie taka potrzeba).
Walidacja danych
Zostało wykonane badanie danych za pomocą funkcji aggr. Wykres po lewej stronie prezentuje proporcje braków danych. W naszym przypadku największe braki występują w trzech zmiennych:
- Sleep Hours - 5,22%
- Exam Score - 4,37%
- Distance from Home - 1,01%
Tabela po prawej stronie ilistruje współwystępowanie braków w zestawie danych. Czerwone pola oznaczają brakujące wartości. Można zauważyć, że brakujące dane są dość rozporoszone i nie występują jednocześnie w wielu zmiennych. Oznacza to, że nie instnieje współzależność pomiędzy występowaniem braków więc dane brakujące będziemy uzupełniać za pomocą podobieństwa.
##
## Variables sorted by number of missings:
## Variable Count
## Sleep_Hours 0.05297412
## Family_Income 0.05297412
## Exam_Score 0.04540639
## Parental_Education_Level 0.01362192
## Teacher_Quality 0.01180566
## Distance_from_Home 0.01014076
## Hours_Studied 0.00000000
## Attendance 0.00000000
## Parental_Involvement 0.00000000
## Access_to_Resources 0.00000000
## Extracurricular_Activities 0.00000000
## Previous_Scores 0.00000000
## Motivation_Level 0.00000000
## Internet_Access 0.00000000
## Tutoring_Sessions 0.00000000
## School_Type 0.00000000
## Peer_Influence 0.00000000
## Physical_Activity 0.00000000
## Learning_Disabilities 0.00000000
## Gender 0.00000000
Wykres poniżej został stworzony za pomocą funkcji gg_miss_upset. Prezentuje on wartości liczbowe brakujących danych
- Family income – 309
- Sleep Hours – 300
- Exam Score - 257
Zdecydowaliśmy się na usunięcie braków ze zmiennych jakościowych z uwagi na ich niewielki udział w próbie.
Wykresy poniżej prezentują braki danych w zmiennych ilościowych (dokonamy imputacji w późniejszych rozdziałach pracy), ale po usunięciu braków ze zmiennych jakościowych.
##
## Variables sorted by number of missings:
## Variable Count
## Sleep_Hours 0.05266645
## Exam_Score 0.04372309
## Hours_Studied 0.00000000
## Attendance 0.00000000
## Parental_Involvement 0.00000000
## Access_to_Resources 0.00000000
## Extracurricular_Activities 0.00000000
## Previous_Scores 0.00000000
## Motivation_Level 0.00000000
## Internet_Access 0.00000000
## Tutoring_Sessions 0.00000000
## Family_Income 0.00000000
## Teacher_Quality 0.00000000
## School_Type 0.00000000
## Peer_Influence 0.00000000
## Physical_Activity 0.00000000
## Learning_Disabilities 0.00000000
## Parental_Education_Level 0.00000000
## Distance_from_Home 0.00000000
## Gender 0.00000000
Imputacja danych
Dokonujemy imputacji danych dla zmiennych Exam_score oraz Sleep_hours za pomocą komendy hotdeck. Następnie za pomocą komendy miss_var_summary sprawdzamy, czy imputacja zakończyła się powodzeniem. W naszym przypadku tak się stało, więc możemy przejśc do następnego kroku.
## # A tibble: 40 × 3
## variable n_miss pct_miss
## <chr> <int> <num>
## 1 Hours_Studied 0 0
## 2 Attendance 0 0
## 3 Parental_Involvement 0 0
## 4 Access_to_Resources 0 0
## 5 Extracurricular_Activities 0 0
## 6 Sleep_Hours 0 0
## 7 Previous_Scores 0 0
## 8 Motivation_Level 0 0
## 9 Internet_Access 0 0
## 10 Tutoring_Sessions 0 0
## # ℹ 30 more rows
Reguły walidacyjne
W nineijszym rodziale tworzymy reguły walidacyjne, aby zapewnić poprawność i spójność danych. Stosujemy poniższe reguły:
Wartość zmiennej Hours_Studied musi mieścić się w przedziale od 0 do 168 (poniważ pokazuje ona ilość godzin spędzanych na nauce tygodniowo)
Wartość zmiennej Phisical_Activity musi mieścić się w przedziale od 0 do 168 (poniważ pokazuje ona ilość godzin spędzanych na aktywności fizycznej tygodniowo)
Wartość zmiennej Sleep_Hous musi mieścić się w przedziale od 0 do 24 (ponieważ pokazuje ona ilość przesanych godzin dziennie)
Wartość zmiennej Attendance musi mieścić się w przedziale od 0 do 10 (poniważ jest wartością procentową)
Wartość zmiennej Previos_Scores musi mieścić się w przedziale od 0 do 10 (poniważ jest wartością procentową)
Wynik równania Sleep_Hours * 7 + Hours_Studied + Phisical_Activity musi zawierać się w przedziale od 0 do 168 (mnożymy średnią dzienną ilość snu * 7, aby uzyskć wartośc tygodniową oraz dodajemy tygodniową ilość nauki oraz aktywności fizycznej, a następnie nakazujemy aby wartość była dodatnia, lecz mniejsza niż ilość godzin w tygodniu)
Jak widać na poniższym wykresie walidacja została zakończona sukcesem.
Wartości odstające
W tym rodziale za pomocą wykresów pudełkowych przestawiliśmy wartości odstające. Jak widać na poniższych wykresach zdarzają się wartości odstające. Szczególnie w zmiennych Exam_Score oraz Tutoring_Sessions.
Za pomocą komendy grubbs.test przeprowadziliśmy test Grubbsa, który służy do wykrywania pojedyńczych wartości odstających w zbiorze danych.
Interpretacja:
dla zmiennej Hours_Studied - brak odstających wartości
dla zmiennej Attendance - brak odstających wartości
dla zmiennej Sleep_Hours - brak odstających wartości
dla zmiennej Previous_Scores - brak odstających wartości
dla zmiennej Tutoring_Sessions - wartość 8 jest istotnie odstająca, lecz realna, więc nie zostanie usunięta ze zbioru danych
dla zmiennej Exam_Score - wartość 100 jest istotnie odstającac, lecz realna, więc nie zostanie usunięta ze zbioru danych
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Hours_Studied
## G = 4.01539, U = 0.99733, p-value = 0.1773
## alternative hypothesis: highest value 44 is an outlier
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Attendance
## G = 1.72722, U = 0.99951, p-value = 1
## alternative hypothesis: lowest value 60 is an outlier
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Sleep_Hours
## G = 2.06320, U = 0.99929, p-value = 1
## alternative hypothesis: lowest value 4 is an outlier
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Previous_Scores
## G = 1.7435, U = 0.9995, p-value = 1
## alternative hypothesis: lowest value 50 is an outlier
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Tutoring_Sessions
## G = 5.25143, U = 0.99543, p-value = 0.0004415
## alternative hypothesis: highest value 8 is an outlier
##
## Grubbs test for one outlier
##
## data: dane_zwalidowane$Exam_Score
## G = 8.43115, U = 0.98822, p-value < 2.2e-16
## alternative hypothesis: highest value 100 is an outlier
Analiza i wizualizacja danych
Jak widać na wykresie poniżej, w próbie dominują mężczyźni. W zbiorze znajduje się 42 % kobiet oraz 58 % mężczyzn.
Jak widać na załączonym histogramie rozkładu zmiennej Exam_Score większość wyników egzaminów mieści się w zakresie 60-75 punktów. Najwięcej uczniów uzyskało wynik 65-70 punktów. Wyniki powyżej 80 punktów są rzadkością.
Na wykresie po lewej (kolor niebiski) przedawiono wyniki egzaminów z podziałem na płcie. Zarowno kobiety, jak i mężczyni w większości uzyskiwali wyniki w zakresie 60-75 punktów. W przypadku mężczyzn widać więcej wyników w górnej części skali (powyżej 75), lecz nie są to duże różnice. Wyniki powyżej 80 punktów są rzzadkością w obu grupach.
Wykres po prawej (kolor zielony) pokazuje ilość godzin poświęconych na naukę tygodniowo w podziale na płcie. W obu grupach większość uczy się 15-25 godzin tygodniowo. Nauka powyżej 40 godzin tygodiowo jest żadkością w obu grupach.
Poniższy wykres rozrzutu przestawia relację między zmienną Hours_Studied a Exam_Score. Czerowna linia regresji sugeruje lekkko poytywną korelację - więcej godzin nauki często wiąże się z lepszym wynikiem. Widzimy, że większość uczniów uczy się od 5 do 30 godzin tygodniowo i osiąga wyniki z przedziału 60-80.
Prezentowany poniżej wykres wiolinowy pokazuje zależność pomiędzy zmienną Parental_Involvment a Exam_Score. W zbiorze zaanagażowanie rodziców określone jest w 3 stopniach - Low, Medium oraz High.
wysokie zaangażowanie rodziców - wyniki są z reguły wyższe niż w innych grupach, najczęściej występują wartości z przedziału 65-70
średnie zaangażowanie rodziców - wyniki skupiają się w przedziale 65-70, lecz na wysokości 70 wykres jest węższy niż dla grupy z wysokim zaangażowaniem
niskie zaangażowanie rodziców - wyniki skupiają się w okolicy wartości 65 i osiągają niższe wartości niż dwie pozostałe grupy
Poniższy wykres słupkowy pokazuje typ szkół do których uczęszczają badani. Zdecydowana większość próby uczęszcza do publicznych placówek edukacyjnych.
Poniższy wykres pudełkowy prezentuje rozkład wyników w zależności od typu szkoły. Jak widać mediana (pogrubiona kreska) dla obu typów szkół znajduje się w okolicach wartości 67. Jednak widać różnice w rozstępie międzykwartylowym. Dla szkół prywatnych mieści się on w przedziale 65-70, a dla szkół publicznych 65-68. W szkołach prywatnych widać większy rozstęp wartości- występują wartości od 56 do 100, a dla szkół publicznych od 57 do 99.
Poniższe wykresy typu Boxplot pokazują zależności pomiędzy zmiennymi Parental_Involvement, Motivation_Level a Exam_Scores.
Interpretacja: Wyniki egzaminów są najwyższe wśród uczniów z wysoką motywacją, niezależnie od zaangażowania rodziców, choć wysokie zaangażowanie rodziców korzystnie wpływa na stabilność wyników. W grupie uczniów o niskiej i średniej motywacji wysokie zaangażowanie rodziców istotnie poprawia wyniki, podczas gdy niskie zaangazowanie skutkuje niższymi rezultatami. Rozrzut wyników jest większy w przypadku niskiej motywacji, co wskazuje na większe zróźnicowanie osiągnięć w tych grupach.
Poniższy wykres przedstawia zależność pomiędzy zmiennymi Acces_to_Resources (określone w wartościach High, Medium oraz Low), Internet_Access (Yes lub No) a zmienną Exam_Score. Na wykresie widzimy, że osoby posiadające wysoki dostęp do źródeł osiągają wyższe wyniki, niż osoby o średnim i niskim dostępie. Widzimy rownież, że osoby posiadające dostęp do internetu osiągają wyższe niż osoby o tym samym poziomie dostępu do źródeł, a braku dostępu do internetu. Możemy z tego wywnioskować, że brak dostępu do zasobów edukacyjnych i internetu negatywnie wpływa na wyniki egzaminów.
Poniższy wykres rozrzutu przestawia relację między zmienną Previous_Score a Exam_Score. Różowa linia regresji sugeruje lekkko poytywną korelację - wyższy wynik z wcześniejszych egzaminów może delikatnie pozytywnie wpływać na lepszy wynik egzaminu końcowego. Rozkład jest równomierny, większość obserwacji jest zbliżona do osi.
Poniższy wykres heksagonalny przedstawia zależność między Exam_Score a zmienną Distance_from_Home (zmienna wyrażona w wartościach Far (daleko), Moderate (umiarkowanie) oraz Near (blisko)). Wyniki egzaminów uczniów, którzy mają daleko do szkoły, są bardziej rozproszone, co sugeruje większą zmienność w tych wynikach. Uczniowie mieszkający umiarkowanie daleko od szkoły osiągają lepsze i bardziej spójne wyniki egzaminów w porównaniu z uczniami mieszkającymi daleko lub blisko szkoły.W przypadku grup umiarkowanie daleko oraz blisko widać największą gęstość wyników w przedziale 60-70. Wyniki z przedziału 95-100 osiągają najczęściej osoby mieszkające blisko szkoły.
Poniższy diagram kołowy prezentuje rozkład zmiennej Learning_Disabilities
10,5 % badanej próbie posiada trudności w uczeniu się
89,5 % badanej próbie nie posiada trudności w nauce
Poniższy wykres słupkowy przedstawia zależność między zmienną Parental_Education_Level a Exam_Score. Wnioski:
Największa liczba uczniów pochodzi z rodzin, w których rodzice mają wykształcenie średnie (High School) – w tej grupie słupki są najwyższe.
Rozkład wyników jest podobny dla każdej grupy – wyniki oscylują głównie w przedziale 60-75 punktów.
Rodzice z wyższym wykształceniem (Postgraduate, College) – ich dzieci osiągają nieco wyższe wyniki w porównaniu do grupy “High School”.
Wysokie wyniki (90-100 punktów) są rzadkie – niezależnie od poziomu wykształcenia rodziców, liczba uczniów z bardzo wysokimi wynikami jest niewielka.
Wykres poniżej przedstawia wpływ zmiennej Teacher_Quality (wyrażonej w wartościach Low, Medium lub High) na Exam_Results. W przypadku niskiej i średniej jakości nauczycieli mediana wyników z egzaminów wynosi 67. Uczniowie wysokiej jakości nauczycieli osiągają wyniki z medianą na poziomie 68. Wynika z tego, że jakość nauczyciela ma niewielki pozytywny wpływ na medianę wyników uczniów.
Wykres poniżej ukazuje relacje między zmienną Family_Income (wyrażony w wartościach Low, Medium oraz High) a Tuttoring_Sessions (wartości z zakresu 0-8). Jak widać na wykresie nie ma wyraźnych zależności pomiędzy dochodem rodziny, a ilością korepetycji.
Poniższy wykres kołowy pokazuje procentowy podział zmiennej Family_Income.
19,2% należy do kategorii High, czyli wysokie dochody rodziny
40,3% należy do kategorii Medium, czyli średnie dochody rodziny
40,5% należy do kategorii Low, czyli niskie dochody rodziny
Poniższy wykres pokazuje zależność między zmienną Sllep_Hours a Exam_Score. Widziamy na nim, że bez względu na ilość snu zdecydowana większośc wyników znajduje się w przedziale 60-75. Pomarańczowa linia reprezentująca korelacje pokazuje jest pozioma, co pokazuje brak korelacji pomiędzy ilością snu a wynikiem z egzaminu. Na podstawie gęstości umieszczenia kropek na wykresie możemy zauważyć, że najwięcej osób śpi między 6 a 8 godzin dziennie.
Analiza opisowa
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Hours_Studied Widzimy, że wartości średniej i mediany są do siebie zbliżone i wynoszą odpowiednio 19,99 oraz 20. Odchylenie standardowe można uznać za umiarkowane. Wartości tej zmiennej mieszczą się z zakresie od 1 do 44.
| Statystyki Opisowe: | |
| Hours_Studied | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 19.99 |
| mediana | 20.00 |
| odchylenie_standardowe | 5.98 |
| minimum | 1.00 |
| maksimum | 44.00 |
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Attendance Widzimy, że wartości średniej i mediany są do siebie zbliżone i wynoszą odpowiednio 80,02 oraz 80. Odchylenie standardowe można uznać za umiarkowane. Wartości tej zmiennej mieszczą się z zakresie od 60 do 100.
| Statystyki Opisowe: | |
| Attendance | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 80.02 |
| mediana | 80.00 |
| odchylenie_standardowe | 11.59 |
| minimum | 60.00 |
| maksimum | 100.00 |
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Sleep_Hours Widzimy, że wartości średniej i mediany są do siebie zbliżone i wynoszą odpowiednio 7,04 oraz 7. Odchylenie standardowe można uznać za umiarkowane. Wartości tej zmiennej mieszczą się z zakresie od 4 do 10.
| Statystyki Opisowe: | |
| Sleep_Hours | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 7.03 |
| mediana | 7.00 |
| odchylenie_standardowe | 1.47 |
| minimum | 4.00 |
| maksimum | 10.00 |
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Tuttoring_Sessions Widzimy, że wartości średniej i mediany wynoszą odpowiednio 1,5 oraz 1,00. Odchylenie standardowe jest duże. W praktyce oznacza to, że ilość godzin korepetycji jest zróźnicowana wśród uczniów Wartości tej zmiennej mieszczą się z zakresie od 0 do 8.
| Statystyki Opisowe: | |
| Tutoring_Sessions | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 1.50 |
| mediana | 1.00 |
| odchylenie_standardowe | 1.24 |
| minimum | 0.00 |
| maksimum | 8.00 |
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Phisical_Activity Widzimy, że wartości średniej i mediany są do siebie zbliżone i wynoszą odpowiednio 2,97 oraz 3. Odchylenie standardowe można uznać za umiarkowane. Wartości tej zmiennej mieszczą się z zakresie od 0 do 6.
| Statystyki Opisowe: | |
| Physical_Activity | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 2.97 |
| mediana | 3.00 |
| odchylenie_standardowe | 1.03 |
| minimum | 0.00 |
| maksimum | 6.00 |
Z tabeli poniżej możemy odczytać statystyki opisowe dla zmiennej Exam_Sconre Widzimy, że wartości średniej i mediany są do siebie zbliżone i wynoszą odpowiednio 67,24 oraz 67. Odchylenie standardowe można uznać za umiarkowane. Wartości tej zmiennej mieszczą się z zakresie od 56 do 100.
| Statystyki Opisowe: | |
| Exam_Score | |
| Rodzaj statystyki | Wartość |
|---|---|
| średnia | 67.25 |
| mediana | 67.00 |
| odchylenie_standardowe | 3.88 |
| minimum | 56.00 |
| maksimum | 100.00 |
Wykres poniżej przedstawia macierz korelacji. Uwzględnia on wpływ zmiennych Hours_Studied, Attendance, Sleep_Hours, Previous_Scores, Tutoring_Sesions, Phisical_Activity na zmienną Exam_Score.
Hours_Studied - istnieje wyraźna dodatnia korelacja, co sugeruje, że większa liczba godzin nauki jest związana z wyższymi wynikami egzaminów.
Attendance - istnieje wyraźna dodatnia korelacja, co sugeruje, że czym wyższa obecność na zajęciach, tym wyższe wyniki z egzaminu.
Sleep_Hours - korelacja jest bardzo słaba, albo nie ma jej wcale.
Previous_Scores - korelacja jest dodatnia, ale słaba, więc można z tego wywynioskować, że wyniki poprzednich egzaminów mają niewielki wpływ na obecną ocenę ucznia. Wysokie wyniki w przeszłości dają niewielkie prawdpodobieństwo osiągnięcia wyższych wyników obecnie.
Tutoring_Sesions - korelacja jest dodatnia, ale bardzo słaba. Możemy to zinterpretować jako: Więcej sesji korepetycji może (ale nie musi) prowadzić do wyższego wyniku z egzaminu.
Phisical_Activity - korelacja jest bardzo słaba, albo nie ma jej wcale.
Wnioskowanie statystyczne
Wykres poniżej prezentuje Exam_Score w zależności od występowania Learning_Disabilities (wyrażane w Yes lub No). Jak widzimy na wykresie, osoby bez trudności w nauce czasami osiągają wyższe wyniki. Średnia dla osób bez trudności wynosi 67,34; a dla osób z trudnościami 66,36. Różnica między wynikami egzaminów uczniów bez i z trudnościami w nauce jest statystycznie istotna, choć nie jest bardzo duża. Wartość Hedges’ g wskazuje na mały efekt wielkości różnicy, co oznacza, że uczniowie bez trudności w nauce mają nieco wyższe wyniki egzaminów niż uczniowie z trudnościami w nauce.
Wykres wiolinowy widoczny poniżej prezentuje zależność między zmienną Extracurricular_Activities a Exam_Score. Jak widać na wykresie, średni wynik z egzaminu dla osób korzystających z zajęć dodatkowych wynosi 67,46; a dla osób nie korzystających z zajęć dodatkowych 66,92. Dla osób korzystających z zajęć dodatkowych widzimy więcej wyników z przedziału 95-100. Mimo że uczniowie biorący udział w zajęciach pozaszkolnych mają nieco wyższe wyniki egzaminów, różnica ta jest statystycznie istotna, ale niewielka, co wynika z wartości współczynnika Hedges’a oraz analizy Bayesowskiej.
Histogram poniżej pokazuje wpływ zmiennej Attendance na Exam_Score. Niebieską linią zaznaczono średnią obecność na zajęciach, która wynosi 80,02. Wartość t-sudent na poziomie 456,02 oraz współczynnika Hedyges’a na poziomie 5,87 wskazują na silny wpływ obecności na zajęciach na wynik egzaminu.
Zakończenie
Przeprowadzona analiza pozwoliła na zidentyfikowanie kluczowych czynników wpływających na wynik testu końcowego. Wyniki wskazują, że czynniki takie jak liczba godzin nauki, zaangażowanie rodziców, dostęp do zasobów edukacyjnych oraz wcześniejsze wyniki akademickie mają wpływ na rezultaty egzaminów. Ponadto, zmienne demograficzne, takie jak płeć czy status społeczno-ekonomiczny, wykazują pewne zależności, ale ich wpływ jest mniej znaczący w porównaniu do innych czynników.
Podjęte kroki w zakresie czyszczenia, imputacji i walidacji danych pozwoliły na uzyskanie rzetelnych wyników i uniknięcie błędów analitycznych. Warto zauważyć, że mimo występowania wartości odstających, nie miały one istotnego wpływu na ogólne wnioski.
Uzyskane rezultaty mogą posłużyć jako podstawa do dalszych badań nad poprawą wyników uczniów. Rekomendowane jest dalsze zgłębianie tematu, szczególnie w zakresie interakcji pomiędzy czynnikami oraz ich długoterminowego wpływu na osiągnięcia uczniów.